Fundamentos de la Ciencia de Datos

Daniel Alcatruz Inostroza

Agosto 14, 2023

Logo de Tu Institución

Para qué? Por qué?

  • La generación de datos ha experimentado un auge gracias a la digitalización de actividades cotidianas.

  • Este aumento en la generación de información ha llevado a un crecimiento exponencial de los datos almacenados.

  • Las actividades en línea, transacciones comerciales y registros gubernamentales son ejemplos clave de fuentes generadoras de datos.

Para qué? Por qué?

  • Para 2020, se estimó un aumento exponencial de información, previéndose alrededor de 40 trillones de GB.

  • Fuentes como redes sociales y plataformas gubernamentales son clave en esta expansión.

  • Surgen desafíos en su gestión y almacenamiento debido a su velocidad y volumen.

  • El análisis de datos es esencial para aprovechar estos datos en campos como la ciencia de datos.

Un camino con los datos

Descripción de la imagen

Ciencia de datos: Un camino con los datos

  • El alto nivel de producción de datos también es una OPORTUNIDAD.

  • Definiendo Ciencia de Datos: - Extraer y generar conocimiento desde los datos.

  • Física, Biología, Química, todas son ciencias que estudian el sistema propio de cada cual.

  • La ciencia de datos, tiene a los datos como objeto de estudio.

Ciencia de Datos: Un camino con los datos

Descripción de la imagen - What is Data Science?

Objetivos en la ciencia de datos

  • Uso de datos

  • Métodos

  • RESPONDER PREGUNTAS

Las cinco V

  • VELOCIDAD: La rapidez en el procesamiento y análisis de datos.

  • VARIEDAD: El uso de datos desde diferentes formatos. Excluir las dificultades.

  • VALOR: Desarrollo e impacto del uso de los datos.

  • VERACIDAD: Calidad y validez de los datos.

  • VOLUMEN: El uso de datos masivos desde diferentes fuentes.

Ejemplos

Ejemplos

Ejemplos

  • Se usaron datos del padrón electoral

  • Datos censales

  • Datos de nivel socioeconómico

  • Análisis de redes, econometría, trabajo de análisis con texto.

Ejemplos

paper1

Ejemplos

paper2

Ejemplos

paper3

Ciencia de Datos: Relevancias

  • La relevancia de la ciencia de datos surge por la gran disposición de datos. (Volumen)

  • Múltiples métodos y algoritmos.

  • Amplia disponibilidad de software para el desarrollo y procesamiento.

  • Las dificultades de almacenamiento y procesamiento han ido decreciendo.

Harvard Bussiness Review: Data Scientist

“The sexiest for in the 21th century….”

Y cómo incorporar la ciencia de datos a nuestro trabajo?

En este curso:

  • Fundamentos de la ciencia de datos
  • Procesar y analizar datos
  • Generar y trazar estrategias para trabajar con nuestros datos
  • Aprendizaje de métodos desde la estadística y la computación
  • Machine learning -Visualización de datos

…antes… no basta con saber programar y procesar datos, la mitad del trabajo es antes… durante… después…

Procesamiento de datos:

Algunas consideraciones importantes:

  • Curiosidad: Motivación por “explorar” los datos, innovar frente a problemas. No todo es explícito.

  • Dominio: El aporte que queremos generar debe basarse en conocimiento científico. Recordar el atributo de VERACIDAD.

  • Argumentación: Las respuestas generadas desde nuestros análisis deben proceder desde el uso de métodos adecuados y una buena interpretación de los resultados. Manejar nuestras hipótesis.

Procesamiento de datos:

  • Dominio de plataformas: Aún cuando la experticia sobre códigos y herramientas, es necesario tener cierta versatilidad para manejar diferentes plataformas para diferentes problemas.

  • Comunicar resultados: Saber contar una historia. Se requieren preguntas e hipótesis que podamos demostrar mediante la visualización de datos.

¿ tenemos estas características?

Sistemas Cloud

  • Los sistemas físicos de cómputo cada día presentan más problemas

  • Dropbox, Drive, ICloud. etc

  • La virtud está en que la “nube”, es algo más que el almacenamiento

  • Poder de almacenamiento y poder de cómputo.

High Performance Computing

  • Ejecutar cálculos de manera sincronizada en una gran cantidad de computadoras en red

  • HPC permite ejecutar cálculos que son demasiado grandes para las computadoras normales, lo que reduce el tiempo que lleva completar operaciones grandes

  • HPC permite la simulación o el análisis de grandes volúmenes de datos que, de otro modo, sería imposible hacer con computadoras estándar

Clusteres y supercomputadores

  • Una sola computadora de alto rendimiento se compone de un grupo de computadoras llamado clúster.

  • Cada nodo tiene un sistema operativo que consta de un procesador con múltiples núcleos, almacenamiento y capacidades de red que permiten que los nodos se comuniquen entre sí.

nodo: computador

Ejemplo

- 16 nodos

  • 4 núcleos por procesador

  • red

Sistema de alto rendimiento computacional

Clouds disponibles

Algunas ventajas del trabajo en clouding:

  • Cargar algoritmos necesarios para el análisis de volúmenes gigantes de información.

  • Utilización de máquinas virtuales.

  • MULTIAGENTES, esto es, la posibilidad de desarrollar varias tareas al mismo tiempo.

Y cómo hacemos ciencia de datos?

paper

Algunas Plataformas

  • En la actualidad, contamos una gran cantidad de plataformas

  • Inicialmente, una buena parte de las plataformas eran de tipo PAGO

  • Stata, SPSS, InfoStat,etc

Algunas Plataformas

  • Si bien hace bastante tiempo se iniciaron plataformas de tipo “open source”….

  • En su mayoría no eran tan conocidas, el soporte entre la comunidad era bastante bajo

  • Falta de redes, recursos y formas de interconectividad

Plataformas

  • “Open source” (código abierto) se refiere a una forma de desarrollar software y crear productos en la que el código fuente del programa está disponible públicamente para que cualquier persona lo pueda ver, modificar y distribuir.

En este curso:

  • R
  • Python

Plataformas

paper

  • No debemos casarnos con una plataforma/lenguaje/workflow…

Plataformas

  • En general, R y Python han desarrollado sus propias lineas con diferentes especializaciones

  • Diferentes comunidades

  • ¿PODEMOS TRABAJAR EN CONJUNTO?

Plataformas

paper Analizar Datos Políticos

Herramientas y Tecnología

Las herramientas contenidad en forma de librerías o paquetes de desarrollo, se clasifican de tres formas:

  1. Manejo de datos no estructurados

  2. Métodos matematicos, estadísticos, machine learning

  3. Herramientas de Visualización

Manejo de datos

  • Cuándo hablamos de datos, de qué hablamos?

  • Pensemos en datos……

Manejo de datos

paper

Manejo de datos: Datos estructurados

  • Aquellos datos que se encuentran tabulados

  • Pensemos en tablas de excel o varias tablas con información cruzada

  • XLSX, CSV, SQL

Manejo de datos: Datos estructurados

paper

  • ¿siempre es posible?

  • ¿Todos los datos se encuentran asi?

Manejo de datos: Datos no estructurados

  • Probablemente el 90% de los datos disponibles

  • Potenciales análisis, ricos en información y metadatos

  • La combinación entre data rapidamente estructurable y otra más compleja, reduce la dimensionalidad de los problemas.

Manejo de datos Datos no estructurados

paper

¿Qué otros datos?

Manejo de datos: Datos no estructurados

  • La cantidad de información que podemos recolectar es abundante

  • Mejorar estrategias, enfoques y análisis

  • Algunas dificultades?

Ejemplos

  • Extracción de datos: Un desafío constante

  • Uso de APIs

  • Web Scraping

Ejemplos de API

  • Audiencia de lobby en el Senado

paper

  • Simular la navegación de un humano

Métodos: Computación, estadística y (ML)

  • Cómo hemos entendido hasta ahora las etapas de la ciencia de datos?

  • Cómo desarrolamos/desplegamos un proyecto de ciencia de datos?

OPINIONES

Métodos: Computación, estadística y (ML)

paper

¿Recuerdan el primer diagrama?

Métodos: Computación, estadística y (ML)

  • Diversos métodos y procesos combinados

  • Análisis econometrico: Test de hipotesis,modelos de regresión, etc

  • Uso de modelos de aprendizaje automatico

Métodos: Computación, estadística y (ML)

  • Modelos de clasificación de texto, imagen, audio, etc

  • Modelos predictivos, que ocurrirá en el futuro?

  • Especificar escenarios, robustecer nuestro modelo

  • El costo computacional, exige que los datos se encuentren “formateados” y “adaptados” para el análisis.

Herramientas de Visualización

  • La última etapa del proceso de generar información

  • Debe efectuarse con precisión y claridad

  • Lo que aquí se genere es lo que vamos a Interpretar y Comunicar

Ejemplos de un proceso de transformación de datos:

paper

  • THICK DATA- DATA SCIENCE